Day24 HyDE（Hypothetical Document Embeddings）

2025 iThome 鐵人賽

DAY 24

AI & Data

AI初學者入門系列第 24 篇

17th鐵人賽

kitty71336

團隊新手小黑

2025-08-26 20:22:48

1038 瀏覽

分享至

一、HyDE 的基本概念

HyDE 的全名是 Hypothetical Document Embeddings，直譯為「假想文件嵌入」。基本概念是：在檢索之前，不是直接拿 Query 去查資料，而是先利用大型語言模型（LLM）生成一份「假想文件」，再將這份文件嵌入（Embedding）到向量空間中，用來檢索資料庫。

先寫一篇「腦中假想的答案」，這份答案雖然不一定正確，但會含有更多的上下文與語意線索，而引導檢索系統找到更精準的結果。

二、HyDE 的運作流程

若與傳統 RAG 對照，HyDE 的流程多了一步「生成假想文件」：

輸入查詢（Query）
例如：「量子電腦的主要應用是什麼？」
生成假想文件
LLM 先寫一篇「可能的答案」，例如：
量子電腦主要應用於密碼學、藥物研發、材料模擬。
向量化嵌入（Embedding）
把這篇「假想答案」轉成向量，作為檢索查詢的表示。
檢索真實資料
用假想文件的向量去資料庫比對，找到相關度更高的真實文件。
生成最終回答
將檢索到的文件餵給 LLM，融合之後產出最終答案。

三、優勢

解決查詢過短問題
短查詢可能檢索不到足夠資訊，但假想文件能自動補足語意。
提升檢索召回率
假想文件會展開 Query，增加語意覆蓋範圍。

三、挑戰

幻覺偏差（Hallucination Bias）
假想文件可能是錯的方向
額外計算成本
每次查詢都需要先產生假想文件，計算成本高
過度擴張語意

四、通常應用於

開放領域問答：特別是查詢過短、語意不清楚的情況。
學術與專利檢索：研究問題往往抽象，HyDE 能幫助擴展檢索語境。

Day23 多模態檢索（Multimodal RAG）

Day25 CRAG (Corrective Retrieval-Augmented Generation )

系列文

AI初學者入門共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IntelliJ IDEA 右上方run箭頭反灰

IT邦幫忙

AI初學者入門系列 第 24 篇